智能论文笔记

Power Efficient Video Super-Resolution on Mobile NPUs with Deep Learning, Mobile AI & AIM 2022 challenge: Report

Andrey Ignatov , Radu Timofte , Cheng-Ming Chiang , Hsien-Kai Kuo , Yu-Syuan Xu , Man-Yu Lee , Allen Lu , Chia-Ming Cheng , Chih-Cheng Chen , Jia-Ying Yong

分类：计算机视觉

2022-11-07

Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.

translated by 谷歌翻译

Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks

Haodong Duan , Yue Zhao , Kai Chen , Yuanjun Xiong , Dahua Lin

分类：计算机视觉

2022-09-20

深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是，当应用于稀有场景或物体的视频时，它们的性能很差，这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题：算法和数据集。从算法的角度来看，我们提出了空间感知的多种偏见（SMAD），它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合，从行动方面。为了消除内在的数据集偏差，我们建议OmnideBias有选择地利用Web数据进行联合培训，这可以通过更少的Web数据实现更高的性能。为了验证有效性，我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验，该数据集的重点是稀有场景。我们还表明，当转移到其他数据集和任务时，辩护形式可以更好地概括。

translated by 谷歌翻译

Closed-form Error Propagation on the SE_n(3) Group for Invariant Extended Kalman Filtering with Applications to VINS

Xinghan Li , Haodong Jiang , Xingyu Chen , He Kong , Junfeng Wu

分类：机器人

2022-06-18

姿势估计对于机器人感知，路径计划等很重要。机器人姿势可以在基质谎言组上建模，并且通常通过基于滤波器的方法进行估算。在本文中，我们在存在随机噪声的情况下建立了不变扩展Kalman滤波器（IEKF）的误差公式，并将其应用于视觉辅助惯性导航。我们通过OpenVINS平台上的数值模拟和实验评估我们的算法。在Euroc公共MAV数据集上执行的仿真和实验都表明，我们的算法优于某些基于最先进的滤波器方法，例如基于Quaternion的EKF，首先估计Jacobian EKF等。

translated by 谷歌翻译

PolyU-BPCoMa: A Dataset and Benchmark Towards Mobile Colorized Mapping Using a Backpack Multisensorial System

Wenzhong Shi , Pengxin Chen , Muyang Wang , Sheng Bao , Haodong Xiang , Yue Yu , Daping Yang

分类：计算机视觉

2022-06-15

通过移动激光扫描和图像构建有色点的云是测量和映射的基本工作。它也是为智能城市建造数字双胞胎的重要先决条件。但是，现有的公共数据集要么是相对较小的规模，要么缺乏准确的几何和彩色地面真理。本文记录了一个名为Polyu-BPComa的多功能数据集，该数据集可独特地定位于移动着色映射。该数据集在背包平台上包含3D激光雷达，球形成像，GNSS和IMU的资源。颜色检查器板在每个调查区域粘贴，因为目标和地面真相数据是由先进的陆地激光扫描仪（TLS）收集的。 3D几何信息和颜色信息可以分别在背包系统和TLS产生的有色点云中恢复。因此，我们提供了一个机会，可以同时为移动多感官系统对映射和着色精度进行基准测试。该数据集的尺寸约为800 GB，涵盖室内和室外环境。数据集和开发套件可在https://github.com/chenpengxin/polyu-bpcoma.git上找到。

translated by 谷歌翻译

DPCN++: Differentiable Phase Correlation Network for Versatile Pose Registration

Zexi Chen , Yiyi Liao , Haozhe Du , Haodong Zhang , Xuecheng Xu , Haojian Lu , Rong Xiong , Yue Wang

分类：计算机视觉 | 机器人

2022-06-12

姿势注册在视觉和机器人技术中至关重要。本文重点介绍了无初始化姿势注册的挑战性任务，最高为7DOF，用于均质和异质测量。虽然最近基于学习的方法显示了使用可区分求解器的希望，但它们要么依赖于启发式定义的对应关系，要么易于局部最小值。我们提出了一个可区分的相关（DPC）求解器，该求解器是全球收敛性且无对应的。当与简单的特征提取网络结合使用时，我们的一般框架DPCN ++允许使用任意初始化的多功能姿势注册。具体而言，特征提取网络首先从一对均质/异质测量值中学习致密特征网格。然后将这些特征网格转换为基于傅立叶变换和球形径向聚集的翻译和比例不变频谱表示形式，将翻译转换和从旋转中脱钩。接下来，使用DPC求解器在频谱中独立有效地估计旋转，比例和翻译。整个管道都是可区分和训练的端到端。我们评估了DCPN ++在多种注册任务上，以不同的输入方式，包括2D Bird的视图图像，3D对象和场景测量以及医疗图像。实验结果表明，DCPN ++的表现优于经典和基于学习的基础线，尤其是在部分观察到的异质测量方面。

translated by 谷歌翻译

OCSampler: Compressing Videos to One Clip with Single-step Sampling

Jintao Lin , Haodong Duan , Kai Chen , Dahua Lin , Limin Wang

分类：计算机视觉

2022-01-12

在本文中，我们提出了一个名为OcSampler的框架，以探索一个紧凑而有效的视频表示，其中一个短剪辑以获得高效的视频识别。最近的作品宁愿通过根据其重要性选择一个框架作为顺序决策任务的帧采样，而我们呈现了一个专用的学习实例的视频冷凝策略的新范式，以选择仅在单个视频中表示整个视频的信息帧步。我们的基本动机是高效的视频识别任务在于一次地处理整个序列而不是顺序拾取帧。因此，这些策略在一个步骤中与简单而有效的策略网络一起导出从光加权略微脱脂网络。此外，我们以帧编号预算扩展了所提出的方法，使框架能够以尽可能少的帧的高度置信度产生正确的预测。四个基准测试，即ActivityNet，Mini-Kinetics，FCVID，Mini-Sports1M的实验证明了我们在准确性，理论计算费用，实际推理速度方面对先前方法的效果。我们还在不同分类器，采样框架和搜索空间上评估其泛化电量。特别是，我们在ActivityNet上达到76.9％的地图和21.7 GFLOPS，具有令人印象深刻的吞吐量：123.9个视频/ s在单个Titan XP GPU上。

translated by 谷歌翻译

Attention-Based Sensor Fusion for Human Activity Recognition Using IMU Signals

Wenjin Tao , Haodong Chen , Md Moniruzzaman , Ming C. Leu , Zhaozheng Yi , Ruwen Qin

分类：计算机视觉

2021-12-20

使用诸如嵌入惯性测量单元（IMU）传感器的可穿戴设备（如智能手表）的人类活动识别（Har）具有与我们日常生活相关的各种应用，例如锻炼跟踪和健康监控。在本文中，我们使用在不同身体位置佩戴的多个IMU传感器提出了一种基于人类活动识别的新颖性方法。首先，设计传感器设计特征提取模块以提取具有卷积神经网络（CNNS）的各个传感器的最辨别特征。其次，开发了一种基于注意的融合机制，以了解不同车身位置处的传感器的重要性，并产生细节特征表示。最后，应用传感器间特征提取模块来学习与分类器连接的传感器间相关性以输出预测的活动。所提出的方法是使用五个公共数据集进行评估，并且在各种活动类别上优于最先进的方法。

translated by 谷歌翻译

Persia: A Hybrid System Scaling Deep Learning Based Recommenders up to 100 Trillion Parameters

Xiangru Lian , Binhang Yuan , Xuefeng Zhu , Yulong Wang , Yongjun He , Honghuan Wu , Lei Sun , Haodong Lyu , Chengjun Liu , Xing Dong

分类：机器学习

2021-11-10

基于深度学习的模型占主导地位的生产推荐系统的当前景观。此外，近年来目睹了模型规模的指数增长 - 从谷歌的2016年模型，最新的Facebook的型号有10亿个参数，具有12万亿参数。型号容量的每次跳跃都有显着的质量增强，这使我们相信100万亿参数的时代即将来临。然而，即使在工业规模数据中心内，这些模型的培训也在挑战。这种困难是从训练计算的惊人的异质性继承 - 模型的嵌入层可以包括总模型尺寸的99.99％，这是极其内存密集的;虽然其余的神经网络越来越多地计算密集型。为支持培训此类巨大模式，迫切需要有效的分布式培训系统。在本文中，我们通过仔细共同设计优化算法和分布式系统架构来解决这一挑战。具体而言，为了确保培训效率和训练精度，我们设计一种新型混合训练算法，其中嵌入层和密集的神经网络由不同的同步机制处理;然后，我们构建一个名为Persia的系统（短暂的并行推荐培训系统，其中包含混合加速），以支持这种混合培训算法。理论上的示范和实证研究均达到100万亿参数，以证明了波斯的系统设计和实施。我们将Pensia公开使用（在https://github.com/persiamml/persia），以便任何人都能够以100万亿参数的规模轻松培训推荐模型。

translated by 谷歌翻译

Kinematic Motion Retargeting via Neural Latent Optimization for Learning Sign Language

Haodong Zhang , Weijie Li , Jiangpin Liu , Zexi Chen , Yuxiang Cui , Yue Wang , Rong Xiong

分类：机器人

2021-03-16

从人类演示到机器人的动作重返是一种有效的方法，可以减少机器人编程的专业需求和工作量，但面临着人与机器人之间的差异导致的挑战。基于传统的优化的方法是耗时的，依赖良好的初始化，而最近使用前馈神经网络的研究遭受了不良的通知来看不见的运动。此外，他们忽略了人类骨骼和机器人结构中的拓扑信息。在本文中，我们提出了一种新的神经潜在优化方法来解决这些问题。潜在优化利用解码器来建立潜在空间和机器人运动空间之间的映射。之后，通过寻找最佳潜伏向量，可以获得满足机器人约束的重个结果。随着潜在优化，神经初始化利用编码器来提供更好初始化以更快，更好地收敛优化。人体骨架和机器人结构都被建模为更好地利用拓扑信息的图表。我们对重新靶向中文手语进行实验，涉及两只手臂和两只手，对关节中相对关系的额外要求。实验包括在模拟环境中的yumi，nao和辣椒和现实世界环境中的yumi重新定位各种人类示范。验证了所提出的方法的效率和准确性。

translated by 谷歌翻译

ReLoc: A Restoration-Assisted Framework for Robust Image Tampering Localization

Peiyu Zhuang , Haodong Li , Rui Yang , Jiwu Huang

分类：计算机视觉

2022-11-08

With the spread of tampered images, locating the tampered regions in digital images has drawn increasing attention. The existing image tampering localization methods, however, suffer from severe performance degradation when the tampered images are subjected to some post-processing, as the tampering traces would be distorted by the post-processing operations. The poor robustness against post-processing has become a bottleneck for the practical applications of image tampering localization techniques. In order to address this issue, this paper proposes a novel restoration-assisted framework for image tampering localization (ReLoc). The ReLoc framework mainly consists of an image restoration module and a tampering localization module. The key idea of ReLoc is to use the restoration module to recover a high-quality counterpart of the distorted tampered image, such that the distorted tampering traces can be re-enhanced, facilitating the tampering localization module to identify the tampered regions. To achieve this, the restoration module is optimized not only with the conventional constraints on image visual quality but also with a forensics-oriented objective function. Furthermore, the restoration module and the localization module are trained alternately, which can stabilize the training process and is beneficial for improving the performance. The proposed framework is evaluated by fighting against JPEG compression, the most commonly used post-processing. Extensive experimental results show that ReLoc can significantly improve the robustness against JPEG compression. The restoration module in a well-trained ReLoc model is transferable. Namely, it is still effective when being directly deployed with another tampering localization module.

translated by 谷歌翻译